Atención Top-Theta: Adelgazamiento de Transformers con Umbralización Compensada Top-Theta: reduce 10x la memoria de atención en transformers con menos del 1% de pérdida. Sin reentrenamiento. Ideal para NLP. 2026-06-17 · 2 min